- Main Datasets (w/ hospitalised data)
- An Exploratory data analysis of the US dataset
- Basic triad of the dataset: validating data types and data integrity of each row
c:\programdata\anaconda3\lib\site-packages\sklearn\utils\deprecation.py:144: FutureWarning: The sklearn.utils.testing module is deprecated in version 0.22 and will be removed in version 0.24. The corresponding classes / functions should instead be imported from sklearn.utils. Anything that cannot be imported from sklearn.utils is now part of the private API. warnings.warn(message, FutureWarning)
Main Datasets (w/ hospitalised data)
Source: https://covidtracking.com/ Source: https://github.com/CSSEGISandData/COVID-19 Various state data, third party data, and various federal data
# see what filtered main dataframe looks like for all 50 states:
all_cases.head(50)
| date | state | abbrev | population | positive | active | hospitalizedCurrently | hospitalizedCumulative | inIcuCurrently | onVentilatorCurrently | ... | negativeTestsViral | positiveCasesViral | commercialScore | negativeRegularScore | negativeScore | positiveScore | score | grade | bedsPerThousand | total_beds | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 2020-06-28 | Alaska | AK | 734002 | 883.000 | 348.000 | 12.000 | nan | nan | 1.000 | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 2.200 | 1614.804 |
| 1 | 2020-06-28 | Alabama | AL | 4908621 | 35441.000 | 15656.000 | 655.000 | 2703.000 | nan | nan | ... | nan | 34964.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.100 | 15216.725 |
| 2 | 2020-06-28 | Arkansas | AR | 3038999 | 19310.000 | 5781.000 | 278.000 | 1373.000 | nan | 63.000 | ... | nan | 19310.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.200 | 9724.797 |
| 3 | 2020-06-28 | Arizona | AZ | 7378494 | 73908.000 | 63394.000 | 2691.000 | 4617.000 | 666.000 | 475.000 | ... | nan | 73497.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 14019.139 |
| 4 | 2020-06-28 | California | CA | 39937489 | 211243.000 | 205338.000 | 5956.000 | nan | 1602.000 | nan | ... | nan | 211243.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 71887.480 |
| 5 | 2020-06-28 | Colorado | CO | 5845526 | 32022.000 | 25906.000 | 235.000 | 5399.000 | nan | nan | ... | nan | 29194.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 11106.499 |
| 6 | 2020-06-28 | Connecticut | CT | 3563077 | 46303.000 | 33934.000 | 103.000 | 10268.000 | nan | nan | ... | nan | 44324.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.000 | 7126.154 |
| 7 | 2020-06-28 | District of Columbia | DC | 720687 | 10248.000 | 8499.000 | 126.000 | nan | 34.000 | 27.000 | ... | nan | 10248.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.400 | 3171.023 |
| 8 | 2020-06-28 | Delaware | DE | 982895 | 11226.000 | 4054.000 | 78.000 | nan | 14.000 | nan | ... | nan | 10162.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.200 | 2162.369 |
| 9 | 2020-06-28 | Florida | FL | 21992985 | 141075.000 | 137557.000 | nan | 14540.000 | nan | nan | ... | 2070179.000 | 141075.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.600 | 57181.761 |
| 10 | 2020-06-28 | Georgia | GA | 10736059 | 77210.000 | 74432.000 | 1236.000 | 10711.000 | nan | nan | ... | 736057.000 | 77210.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 25766.542 |
| 11 | 2020-06-28 | Hawaii | HI | 1412687 | 872.000 | 140.000 | nan | 110.000 | nan | nan | ... | 87010.000 | 872.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 2684.105 |
| 12 | 2020-06-28 | Iowa | IA | 3179849 | 28489.000 | 10164.000 | 118.000 | nan | 36.000 | 18.000 | ... | nan | 28489.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.000 | 9539.547 |
| 13 | 2020-06-28 | Idaho | ID | 1826156 | 5319.000 | 1330.000 | nan | 312.000 | nan | nan | ... | nan | 4790.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 3469.696 |
| 14 | 2020-06-28 | Illinois | IL | 12659682 | 142776.000 | 135687.000 | 1464.000 | nan | 373.000 | 193.000 | ... | nan | 141723.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 31649.205 |
| 15 | 2020-06-28 | Indiana | IN | 6745354 | 44930.000 | 8376.000 | 617.000 | 7003.000 | 266.000 | 86.000 | ... | nan | 44930.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.700 | 18212.456 |
| 16 | 2020-06-28 | Kansas | KS | 2910357 | 13538.000 | 12495.000 | nan | 1128.000 | nan | nan | ... | nan | 13538.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 9604.178 |
| 17 | 2020-06-28 | Kentucky | KY | 4499692 | 15232.000 | 10944.000 | 386.000 | 2590.000 | 68.000 | nan | ... | nan | 14732.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.200 | 14399.014 |
| 18 | 2020-06-28 | Louisiana | LA | 4645184 | 56236.000 | 13245.000 | 715.000 | nan | nan | 76.000 | ... | nan | 56236.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 15329.107 |
| 19 | 2020-06-28 | Massachusetts | MA | 6976597 | 108667.000 | 100607.000 | 748.000 | 11319.000 | 134.000 | 81.000 | ... | nan | 103539.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.300 | 16046.173 |
| 20 | 2020-06-28 | Maryland | MD | 6083116 | 66777.000 | 58633.000 | 446.000 | 10793.000 | 158.000 | nan | ... | nan | 66777.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 11557.920 |
| 21 | 2020-06-28 | Maine | ME | 1345790 | 3191.000 | 510.000 | 31.000 | 346.000 | 10.000 | 4.000 | ... | 89123.000 | 2838.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 3364.475 |
| 22 | 2020-06-28 | Michigan | MI | 10045029 | 69946.000 | 12689.000 | 557.000 | nan | 193.000 | 106.000 | ... | 946733.000 | 63261.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 25112.573 |
| 23 | 2020-06-28 | Minnesota | MN | 5700671 | 35549.000 | 3280.000 | 288.000 | 4010.000 | 143.000 | nan | ... | nan | 35549.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 14251.678 |
| 24 | 2020-06-28 | Missouri | MO | 6169270 | 20575.000 | 19578.000 | 412.000 | nan | nan | nan | ... | 399926.000 | 20575.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.100 | 19124.737 |
| 25 | 2020-06-28 | Mississippi | MS | 2989260 | 25892.000 | 7611.000 | 676.000 | 3102.000 | 149.000 | 88.000 | ... | nan | 25724.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.000 | 11957.040 |
| 26 | 2020-06-28 | Montana | MT | 1086759 | 863.000 | 237.000 | 11.000 | 97.000 | nan | nan | ... | nan | 863.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 3586.305 |
| 27 | 2020-06-28 | North Carolina | NC | 10611862 | 62142.000 | 23899.000 | 890.000 | nan | nan | nan | ... | nan | 62142.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 22284.910 |
| 28 | 2020-06-28 | North Dakota | ND | 761723 | 3495.000 | 268.000 | 24.000 | 226.000 | nan | nan | ... | nan | 3495.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.300 | 3275.409 |
| 29 | 2020-06-28 | Nebraska | NE | 1952570 | 18775.000 | 5455.000 | 123.000 | 1315.000 | nan | nan | ... | nan | 18775.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.600 | 7029.252 |
| 30 | 2020-06-28 | New Hampshire | NH | 1371246 | 5717.000 | 949.000 | 35.000 | 562.000 | nan | nan | ... | nan | 5717.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 2879.617 |
| 31 | 2020-06-28 | New Jersey | NJ | 8936574 | 171182.000 | 126115.000 | 1014.000 | 19841.000 | 223.000 | 187.000 | ... | nan | 171182.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 21447.778 |
| 32 | 2020-06-28 | New Mexico | NM | 2096640 | 11619.000 | 5877.000 | 122.000 | 1851.000 | nan | nan | ... | nan | 11619.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 3773.952 |
| 33 | 2020-06-28 | Nevada | NV | 3139658 | 17160.000 | 15976.000 | 511.000 | nan | 122.000 | 59.000 | ... | nan | 17160.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 6593.282 |
| 34 | 2020-06-28 | New York | NY | 19440469 | 392539.000 | 297694.000 | 869.000 | 89995.000 | 229.000 | 167.000 | ... | nan | 392539.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.700 | 52489.266 |
| 35 | 2020-06-28 | Ohio | OH | 11747694 | 50309.000 | 47502.000 | 661.000 | 7681.000 | 182.000 | 101.000 | ... | nan | 46790.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.800 | 32893.543 |
| 36 | 2020-06-28 | Oklahoma | OK | 3954821 | 12994.000 | 3212.000 | 329.000 | 1456.000 | 134.000 | nan | ... | 313021.000 | 12642.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.800 | 11073.499 |
| 37 | 2020-06-28 | Oregon | OR | 4301089 | 8341.000 | 5490.000 | 149.000 | 1022.000 | 53.000 | 35.000 | ... | 223317.000 | 7521.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.600 | 6881.742 |
| 38 | 2020-06-28 | Pennsylvania | PA | 12820878 | 85496.000 | 12231.000 | 648.000 | nan | nan | 121.000 | ... | nan | 81956.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.900 | 37180.546 |
| 39 | 2020-06-28 | Rhode Island | RI | 1056161 | 16661.000 | 14134.000 | 91.000 | 1984.000 | 16.000 | 15.000 | ... | nan | 16661.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 2217.938 |
| 40 | 2020-06-28 | South Carolina | SC | 5210095 | 33320.000 | 19148.000 | 954.000 | 2622.000 | nan | nan | ... | 317085.000 | 33221.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 12504.228 |
| 41 | 2020-06-28 | South Dakota | SD | 903027 | 6681.000 | 838.000 | 75.000 | 652.000 | nan | nan | ... | nan | 6681.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.800 | 4334.530 |
| 42 | 2020-06-28 | Tennessee | TN | 6897576 | 40172.000 | 13429.000 | 484.000 | 2564.000 | nan | nan | ... | 701761.000 | 39848.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.900 | 20002.970 |
| 43 | 2020-06-28 | Texas | TX | 29472295 | 148728.000 | 66361.000 | 5497.000 | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 2.300 | 67786.278 |
| 44 | 2020-06-28 | Utah | UT | 3282115 | 21100.000 | 9002.000 | 289.000 | 1396.000 | 83.000 | nan | ... | nan | 21100.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 5907.807 |
| 45 | 2020-06-28 | Virginia | VA | 8626207 | 61736.000 | 51999.000 | 818.000 | 8823.000 | 235.000 | 107.000 | ... | nan | 59071.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 18115.035 |
| 46 | 2020-06-28 | Vermont | VT | 628061 | 1202.000 | 200.000 | 15.000 | nan | nan | nan | ... | nan | 1202.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 1318.928 |
| 47 | 2020-06-28 | Washington | WA | 7797095 | 31404.000 | 30094.000 | 304.000 | 4240.000 | nan | 58.000 | ... | nan | 31404.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 48 | 2020-06-28 | Wisconsin | WI | 5851754 | 30707.000 | 7977.000 | 239.000 | 3393.000 | 89.000 | nan | ... | nan | 27743.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 12288.683 |
| 49 | 2020-06-28 | West Virginia | WV | 1778070 | 2817.000 | 662.000 | 32.000 | nan | 10.000 | 4.000 | ... | nan | 2723.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.800 | 6756.666 |
50 rows × 29 columns
#Add state level data, beds, beds/1k, population, abbreviation, and name:
all_cases.head(50)
| date | state | abbrev | population | positive | active | hospitalizedCurrently | hospitalizedCumulative | inIcuCurrently | onVentilatorCurrently | ... | negativeTestsViral | positiveCasesViral | commercialScore | negativeRegularScore | negativeScore | positiveScore | score | grade | bedsPerThousand | total_beds | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 2020-06-28 | Alaska | AK | 734002 | 883.000 | 348.000 | 12.000 | nan | nan | 1.000 | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 2.200 | 1614.804 |
| 1 | 2020-06-28 | Alabama | AL | 4908621 | 35441.000 | 15656.000 | 655.000 | 2703.000 | nan | nan | ... | nan | 34964.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.100 | 15216.725 |
| 2 | 2020-06-28 | Arkansas | AR | 3038999 | 19310.000 | 5781.000 | 278.000 | 1373.000 | nan | 63.000 | ... | nan | 19310.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.200 | 9724.797 |
| 3 | 2020-06-28 | Arizona | AZ | 7378494 | 73908.000 | 63394.000 | 2691.000 | 4617.000 | 666.000 | 475.000 | ... | nan | 73497.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 14019.139 |
| 4 | 2020-06-28 | California | CA | 39937489 | 211243.000 | 205338.000 | 5956.000 | nan | 1602.000 | nan | ... | nan | 211243.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 71887.480 |
| 5 | 2020-06-28 | Colorado | CO | 5845526 | 32022.000 | 25906.000 | 235.000 | 5399.000 | nan | nan | ... | nan | 29194.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 11106.499 |
| 6 | 2020-06-28 | Connecticut | CT | 3563077 | 46303.000 | 33934.000 | 103.000 | 10268.000 | nan | nan | ... | nan | 44324.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.000 | 7126.154 |
| 7 | 2020-06-28 | District of Columbia | DC | 720687 | 10248.000 | 8499.000 | 126.000 | nan | 34.000 | 27.000 | ... | nan | 10248.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.400 | 3171.023 |
| 8 | 2020-06-28 | Delaware | DE | 982895 | 11226.000 | 4054.000 | 78.000 | nan | 14.000 | nan | ... | nan | 10162.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.200 | 2162.369 |
| 9 | 2020-06-28 | Florida | FL | 21992985 | 141075.000 | 137557.000 | nan | 14540.000 | nan | nan | ... | 2070179.000 | 141075.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.600 | 57181.761 |
| 10 | 2020-06-28 | Georgia | GA | 10736059 | 77210.000 | 74432.000 | 1236.000 | 10711.000 | nan | nan | ... | 736057.000 | 77210.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 25766.542 |
| 11 | 2020-06-28 | Hawaii | HI | 1412687 | 872.000 | 140.000 | nan | 110.000 | nan | nan | ... | 87010.000 | 872.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 2684.105 |
| 12 | 2020-06-28 | Iowa | IA | 3179849 | 28489.000 | 10164.000 | 118.000 | nan | 36.000 | 18.000 | ... | nan | 28489.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.000 | 9539.547 |
| 13 | 2020-06-28 | Idaho | ID | 1826156 | 5319.000 | 1330.000 | nan | 312.000 | nan | nan | ... | nan | 4790.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 3469.696 |
| 14 | 2020-06-28 | Illinois | IL | 12659682 | 142776.000 | 135687.000 | 1464.000 | nan | 373.000 | 193.000 | ... | nan | 141723.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 31649.205 |
| 15 | 2020-06-28 | Indiana | IN | 6745354 | 44930.000 | 8376.000 | 617.000 | 7003.000 | 266.000 | 86.000 | ... | nan | 44930.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.700 | 18212.456 |
| 16 | 2020-06-28 | Kansas | KS | 2910357 | 13538.000 | 12495.000 | nan | 1128.000 | nan | nan | ... | nan | 13538.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 9604.178 |
| 17 | 2020-06-28 | Kentucky | KY | 4499692 | 15232.000 | 10944.000 | 386.000 | 2590.000 | 68.000 | nan | ... | nan | 14732.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.200 | 14399.014 |
| 18 | 2020-06-28 | Louisiana | LA | 4645184 | 56236.000 | 13245.000 | 715.000 | nan | nan | 76.000 | ... | nan | 56236.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 15329.107 |
| 19 | 2020-06-28 | Massachusetts | MA | 6976597 | 108667.000 | 100607.000 | 748.000 | 11319.000 | 134.000 | 81.000 | ... | nan | 103539.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.300 | 16046.173 |
| 20 | 2020-06-28 | Maryland | MD | 6083116 | 66777.000 | 58633.000 | 446.000 | 10793.000 | 158.000 | nan | ... | nan | 66777.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 11557.920 |
| 21 | 2020-06-28 | Maine | ME | 1345790 | 3191.000 | 510.000 | 31.000 | 346.000 | 10.000 | 4.000 | ... | 89123.000 | 2838.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 3364.475 |
| 22 | 2020-06-28 | Michigan | MI | 10045029 | 69946.000 | 12689.000 | 557.000 | nan | 193.000 | 106.000 | ... | 946733.000 | 63261.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 25112.573 |
| 23 | 2020-06-28 | Minnesota | MN | 5700671 | 35549.000 | 3280.000 | 288.000 | 4010.000 | 143.000 | nan | ... | nan | 35549.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 14251.678 |
| 24 | 2020-06-28 | Missouri | MO | 6169270 | 20575.000 | 19578.000 | 412.000 | nan | nan | nan | ... | 399926.000 | 20575.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.100 | 19124.737 |
| 25 | 2020-06-28 | Mississippi | MS | 2989260 | 25892.000 | 7611.000 | 676.000 | 3102.000 | 149.000 | 88.000 | ... | nan | 25724.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.000 | 11957.040 |
| 26 | 2020-06-28 | Montana | MT | 1086759 | 863.000 | 237.000 | 11.000 | 97.000 | nan | nan | ... | nan | 863.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 3586.305 |
| 27 | 2020-06-28 | North Carolina | NC | 10611862 | 62142.000 | 23899.000 | 890.000 | nan | nan | nan | ... | nan | 62142.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 22284.910 |
| 28 | 2020-06-28 | North Dakota | ND | 761723 | 3495.000 | 268.000 | 24.000 | 226.000 | nan | nan | ... | nan | 3495.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.300 | 3275.409 |
| 29 | 2020-06-28 | Nebraska | NE | 1952570 | 18775.000 | 5455.000 | 123.000 | 1315.000 | nan | nan | ... | nan | 18775.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.600 | 7029.252 |
| 30 | 2020-06-28 | New Hampshire | NH | 1371246 | 5717.000 | 949.000 | 35.000 | 562.000 | nan | nan | ... | nan | 5717.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 2879.617 |
| 31 | 2020-06-28 | New Jersey | NJ | 8936574 | 171182.000 | 126115.000 | 1014.000 | 19841.000 | 223.000 | 187.000 | ... | nan | 171182.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 21447.778 |
| 32 | 2020-06-28 | New Mexico | NM | 2096640 | 11619.000 | 5877.000 | 122.000 | 1851.000 | nan | nan | ... | nan | 11619.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 3773.952 |
| 33 | 2020-06-28 | Nevada | NV | 3139658 | 17160.000 | 15976.000 | 511.000 | nan | 122.000 | 59.000 | ... | nan | 17160.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 6593.282 |
| 34 | 2020-06-28 | New York | NY | 19440469 | 392539.000 | 297694.000 | 869.000 | 89995.000 | 229.000 | 167.000 | ... | nan | 392539.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.700 | 52489.266 |
| 35 | 2020-06-28 | Ohio | OH | 11747694 | 50309.000 | 47502.000 | 661.000 | 7681.000 | 182.000 | 101.000 | ... | nan | 46790.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.800 | 32893.543 |
| 36 | 2020-06-28 | Oklahoma | OK | 3954821 | 12994.000 | 3212.000 | 329.000 | 1456.000 | 134.000 | nan | ... | 313021.000 | 12642.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.800 | 11073.499 |
| 37 | 2020-06-28 | Oregon | OR | 4301089 | 8341.000 | 5490.000 | 149.000 | 1022.000 | 53.000 | 35.000 | ... | 223317.000 | 7521.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.600 | 6881.742 |
| 38 | 2020-06-28 | Pennsylvania | PA | 12820878 | 85496.000 | 12231.000 | 648.000 | nan | nan | 121.000 | ... | nan | 81956.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.900 | 37180.546 |
| 39 | 2020-06-28 | Rhode Island | RI | 1056161 | 16661.000 | 14134.000 | 91.000 | 1984.000 | 16.000 | 15.000 | ... | nan | 16661.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 2217.938 |
| 40 | 2020-06-28 | South Carolina | SC | 5210095 | 33320.000 | 19148.000 | 954.000 | 2622.000 | nan | nan | ... | 317085.000 | 33221.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 12504.228 |
| 41 | 2020-06-28 | South Dakota | SD | 903027 | 6681.000 | 838.000 | 75.000 | 652.000 | nan | nan | ... | nan | 6681.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.800 | 4334.530 |
| 42 | 2020-06-28 | Tennessee | TN | 6897576 | 40172.000 | 13429.000 | 484.000 | 2564.000 | nan | nan | ... | 701761.000 | 39848.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.900 | 20002.970 |
| 43 | 2020-06-28 | Texas | TX | 29472295 | 148728.000 | 66361.000 | 5497.000 | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 2.300 | 67786.278 |
| 44 | 2020-06-28 | Utah | UT | 3282115 | 21100.000 | 9002.000 | 289.000 | 1396.000 | 83.000 | nan | ... | nan | 21100.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 5907.807 |
| 45 | 2020-06-28 | Virginia | VA | 8626207 | 61736.000 | 51999.000 | 818.000 | 8823.000 | 235.000 | 107.000 | ... | nan | 59071.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 18115.035 |
| 46 | 2020-06-28 | Vermont | VT | 628061 | 1202.000 | 200.000 | 15.000 | nan | nan | nan | ... | nan | 1202.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 1318.928 |
| 47 | 2020-06-28 | Washington | WA | 7797095 | 31404.000 | 30094.000 | 304.000 | 4240.000 | nan | 58.000 | ... | nan | 31404.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 48 | 2020-06-28 | Wisconsin | WI | 5851754 | 30707.000 | 7977.000 | 239.000 | 3393.000 | 89.000 | nan | ... | nan | 27743.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 12288.683 |
| 49 | 2020-06-28 | West Virginia | WV | 1778070 | 2817.000 | 662.000 | 32.000 | nan | 10.000 | 4.000 | ... | nan | 2723.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.800 | 6756.666 |
50 rows × 29 columns
- Load and clean JHU data
- Merge JHU dataset with main dataset
#Load the Johns Hopkins data
jhu_df.tail(50)
| LastUpdate | ProvinceState | Active | Confirmed | Deaths | Recovered | |
|---|---|---|---|---|---|---|
| 5145 | 2020-06-19 | Alaska | 695.000 | 707.000 | 12.000 | 0.000 |
| 5146 | 2020-06-19 | Arizona | 42162.000 | 43445.000 | 1283.000 | 0.000 |
| 5147 | 2020-06-19 | Arkansas | 13720.000 | 13928.000 | 208.000 | 0.000 |
| 5148 | 2020-06-19 | California | 161731.000 | 167086.000 | 5355.000 | 0.000 |
| 5149 | 2020-06-19 | Colorado | 28248.000 | 29886.000 | 1638.000 | 0.000 |
| 5150 | 2020-06-19 | Connecticut | 41214.000 | 45440.000 | 4226.000 | 0.000 |
| 5151 | 2020-06-19 | Delaware | 10068.000 | 10499.000 | 431.000 | 0.000 |
| 5152 | 2020-06-19 | District of Columbia | 9376.000 | 9903.000 | 527.000 | 0.000 |
| 5153 | 2020-06-19 | Florida | 82865.000 | 85926.000 | 3061.000 | 0.000 |
| 5154 | 2020-06-19 | Georgia | 58307.000 | 60912.000 | 2605.000 | 0.000 |
| 5155 | 2020-06-19 | Hawaii | 745.000 | 762.000 | 17.000 | 0.000 |
| 5156 | 2020-06-19 | Idaho | 3654.000 | 3743.000 | 89.000 | 0.000 |
| 5157 | 2020-06-19 | Illinois | 128241.000 | 134778.000 | 6537.000 | 0.000 |
| 5158 | 2020-06-19 | Indiana | 38947.000 | 41438.000 | 2491.000 | 0.000 |
| 5159 | 2020-06-19 | Iowa | 24181.000 | 24861.000 | 680.000 | 0.000 |
| 5160 | 2020-06-19 | Kansas | 11502.000 | 11753.000 | 251.000 | 0.000 |
| 5161 | 2020-06-19 | Kentucky | 12677.000 | 13197.000 | 520.000 | 0.000 |
| 5162 | 2020-06-19 | Louisiana | 45572.000 | 48634.000 | 3062.000 | 0.000 |
| 5163 | 2020-06-19 | Maine | 2776.000 | 2878.000 | 102.000 | 0.000 |
| 5164 | 2020-06-19 | Maryland | 60213.000 | 63229.000 | 3016.000 | 0.000 |
| 5165 | 2020-06-19 | Massachusetts | 98653.000 | 106422.000 | 7769.000 | 0.000 |
| 5166 | 2020-06-19 | Michigan | 60737.000 | 66798.000 | 6061.000 | 0.000 |
| 5167 | 2020-06-19 | Minnesota | 30299.000 | 31675.000 | 1376.000 | 0.000 |
| 5168 | 2020-06-19 | Mississippi | 19703.000 | 20641.000 | 938.000 | 0.000 |
| 5169 | 2020-06-19 | Missouri | 16426.000 | 17371.000 | 945.000 | 0.000 |
| 5170 | 2020-06-19 | Montana | 635.000 | 655.000 | 20.000 | 0.000 |
| 5171 | 2020-06-19 | Nebraska | 17175.000 | 17414.000 | 239.000 | 0.000 |
| 5172 | 2020-06-19 | Nevada | 11694.000 | 12169.000 | 475.000 | 0.000 |
| 5173 | 2020-06-19 | New Hampshire | 5119.000 | 5450.000 | 331.000 | 0.000 |
| 5174 | 2020-06-19 | New Jersey | 155238.000 | 168107.000 | 12869.000 | 0.000 |
| 5175 | 2020-06-19 | New Mexico | 9697.000 | 10153.000 | 456.000 | 0.000 |
| 5176 | 2020-06-19 | New York | 354786.000 | 385760.000 | 30974.000 | 0.000 |
| 5177 | 2020-06-19 | North Carolina | 46972.000 | 48168.000 | 1196.000 | 0.000 |
| 5178 | 2020-06-19 | North Dakota | 3118.000 | 3193.000 | 75.000 | 0.000 |
| 5179 | 2020-06-19 | Ohio | 40489.000 | 43122.000 | 2633.000 | 0.000 |
| 5180 | 2020-06-19 | Oklahoma | 8989.000 | 9355.000 | 366.000 | 0.000 |
| 5181 | 2020-06-19 | Oregon | 6179.000 | 6366.000 | 187.000 | 0.000 |
| 5182 | 2020-06-19 | Pennsylvania | 78322.000 | 84683.000 | 6361.000 | 0.000 |
| 5183 | 2020-06-19 | Rhode Island | 15384.000 | 16269.000 | 885.000 | 0.000 |
| 5184 | 2020-06-19 | South Carolina | 20912.000 | 21533.000 | 621.000 | 0.000 |
| 5185 | 2020-06-19 | South Dakota | 6031.000 | 6109.000 | 78.000 | 0.000 |
| 5186 | 2020-06-19 | Tennessee | 32262.000 | 32770.000 | 508.000 | 0.000 |
| 5187 | 2020-06-19 | Texas | 99130.000 | 101259.000 | 2129.000 | 0.000 |
| 5188 | 2020-06-19 | Utah | 15687.000 | 15839.000 | 152.000 | 0.000 |
| 5189 | 2020-06-19 | Vermont | 1079.000 | 1135.000 | 56.000 | 0.000 |
| 5190 | 2020-06-19 | Virginia | 54652.000 | 56238.000 | 1586.000 | 0.000 |
| 5191 | 2020-06-19 | Washington | 25947.000 | 27192.000 | 1245.000 | 0.000 |
| 5192 | 2020-06-19 | West Virginia | 2330.000 | 2418.000 | 88.000 | 0.000 |
| 5193 | 2020-06-19 | Wisconsin | 23157.000 | 23876.000 | 719.000 | 0.000 |
| 5194 | 2020-06-19 | Wyoming | 1126.000 | 1144.000 | 18.000 | 0.000 |
#Grab all historical data and ensure we have the 1st US case.
all_cases.tail()
| date | state | abbrev | population | positive | active | hospitalizedCurrently | hospitalizedCumulative | inIcuCurrently | onVentilatorCurrently | ... | negativeTestsViral | positiveCasesViral | commercialScore | negativeRegularScore | negativeScore | positiveScore | score | grade | bedsPerThousand | total_beds | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5927 | 2020-01-26 | Washington | WA | 7797095 | 2.000 | 2.000 | nan | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 5928 | 2020-01-25 | Washington | WA | 7797095 | 2.000 | 2.000 | nan | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 5929 | 2020-01-24 | Washington | WA | 7797095 | 2.000 | 2.000 | nan | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 5930 | 2020-01-23 | Washington | WA | 7797095 | 2.000 | 2.000 | nan | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 5931 | 2020-01-22 | Washington | WA | 7797095 | 2.000 | 2.000 | nan | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
5 rows × 29 columns
<class 'pandas.core.frame.DataFrame'> Int64Index: 5932 entries, 0 to 5931 Data columns (total 29 columns): date 5932 non-null datetime64[ns] state 5932 non-null object abbrev 5932 non-null object population 5932 non-null int64 positive 5932 non-null float64 active 5932 non-null float64 hospitalizedCurrently 3645 non-null float64 hospitalizedCumulative 3234 non-null float64 inIcuCurrently 1883 non-null float64 onVentilatorCurrently 1675 non-null float64 recovered 5932 non-null float64 dataQualityGrade 4998 non-null object lastUpdateEt 5577 non-null object dateModified 5577 non-null object checkTimeEt 5577 non-null object death 5932 non-null float64 hospitalized 3234 non-null float64 totalTestsViral 1592 non-null float64 positiveTestsViral 535 non-null float64 negativeTestsViral 535 non-null float64 positiveCasesViral 3108 non-null float64 commercialScore 5932 non-null int64 negativeRegularScore 5932 non-null int64 negativeScore 5932 non-null int64 positiveScore 5932 non-null int64 score 5932 non-null int64 grade 0 non-null float64 bedsPerThousand 5932 non-null float64 total_beds 5932 non-null float64 dtypes: datetime64[ns](1), float64(16), int64(6), object(6) memory usage: 1.4+ MB
#We check the data type are correct above and review our combined, cleaned, validated, and merged data set for all 50 states:
covid_df.head(50)
| date | state | abbrev | population | positive | active | hospitalizedCurrently | hospitalizedCumulative | inIcuCurrently | onVentilatorCurrently | ... | negativeTestsViral | positiveCasesViral | commercialScore | negativeRegularScore | negativeScore | positiveScore | score | grade | bedsPerThousand | total_beds | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 2020-06-28 | Alaska | AK | 734002 | 883.000 | 348.000 | 12.000 | nan | nan | 1.000 | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 2.200 | 1614.804 |
| 1 | 2020-06-28 | Alabama | AL | 4908621 | 35441.000 | 15656.000 | 655.000 | 2703.000 | nan | nan | ... | nan | 34964.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.100 | 15216.725 |
| 2 | 2020-06-28 | Arkansas | AR | 3038999 | 19310.000 | 5781.000 | 278.000 | 1373.000 | nan | 63.000 | ... | nan | 19310.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.200 | 9724.797 |
| 3 | 2020-06-28 | Arizona | AZ | 7378494 | 73908.000 | 63394.000 | 2691.000 | 4617.000 | 666.000 | 475.000 | ... | nan | 73497.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 14019.139 |
| 4 | 2020-06-28 | California | CA | 39937489 | 211243.000 | 205338.000 | 5956.000 | nan | 1602.000 | nan | ... | nan | 211243.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 71887.480 |
| 5 | 2020-06-28 | Colorado | CO | 5845526 | 32022.000 | 25906.000 | 235.000 | 5399.000 | nan | nan | ... | nan | 29194.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 11106.499 |
| 6 | 2020-06-28 | Connecticut | CT | 3563077 | 46303.000 | 33934.000 | 103.000 | 10268.000 | nan | nan | ... | nan | 44324.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.000 | 7126.154 |
| 7 | 2020-06-28 | District of Columbia | DC | 720687 | 10248.000 | 8499.000 | 126.000 | nan | 34.000 | 27.000 | ... | nan | 10248.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.400 | 3171.023 |
| 8 | 2020-06-28 | Delaware | DE | 982895 | 11226.000 | 4054.000 | 78.000 | nan | 14.000 | nan | ... | nan | 10162.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.200 | 2162.369 |
| 9 | 2020-06-28 | Florida | FL | 21992985 | 141075.000 | 137557.000 | nan | 14540.000 | nan | nan | ... | 2070179.000 | 141075.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.600 | 57181.761 |
| 10 | 2020-06-28 | Georgia | GA | 10736059 | 77210.000 | 74432.000 | 1236.000 | 10711.000 | nan | nan | ... | 736057.000 | 77210.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 25766.542 |
| 11 | 2020-06-28 | Hawaii | HI | 1412687 | 872.000 | 140.000 | nan | 110.000 | nan | nan | ... | 87010.000 | 872.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 2684.105 |
| 12 | 2020-06-28 | Iowa | IA | 3179849 | 28489.000 | 10164.000 | 118.000 | nan | 36.000 | 18.000 | ... | nan | 28489.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.000 | 9539.547 |
| 13 | 2020-06-28 | Idaho | ID | 1826156 | 5319.000 | 1330.000 | nan | 312.000 | nan | nan | ... | nan | 4790.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 3469.696 |
| 14 | 2020-06-28 | Illinois | IL | 12659682 | 142776.000 | 135687.000 | 1464.000 | nan | 373.000 | 193.000 | ... | nan | 141723.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 31649.205 |
| 15 | 2020-06-28 | Indiana | IN | 6745354 | 44930.000 | 8376.000 | 617.000 | 7003.000 | 266.000 | 86.000 | ... | nan | 44930.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.700 | 18212.456 |
| 16 | 2020-06-28 | Kansas | KS | 2910357 | 13538.000 | 12495.000 | nan | 1128.000 | nan | nan | ... | nan | 13538.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 9604.178 |
| 17 | 2020-06-28 | Kentucky | KY | 4499692 | 15232.000 | 10944.000 | 386.000 | 2590.000 | 68.000 | nan | ... | nan | 14732.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.200 | 14399.014 |
| 18 | 2020-06-28 | Louisiana | LA | 4645184 | 56236.000 | 13245.000 | 715.000 | nan | nan | 76.000 | ... | nan | 56236.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 15329.107 |
| 19 | 2020-06-28 | Massachusetts | MA | 6976597 | 108667.000 | 100607.000 | 748.000 | 11319.000 | 134.000 | 81.000 | ... | nan | 103539.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.300 | 16046.173 |
| 20 | 2020-06-28 | Maryland | MD | 6083116 | 66777.000 | 58633.000 | 446.000 | 10793.000 | 158.000 | nan | ... | nan | 66777.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.900 | 11557.920 |
| 21 | 2020-06-28 | Maine | ME | 1345790 | 3191.000 | 510.000 | 31.000 | 346.000 | 10.000 | 4.000 | ... | 89123.000 | 2838.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 3364.475 |
| 22 | 2020-06-28 | Michigan | MI | 10045029 | 69946.000 | 12689.000 | 557.000 | nan | 193.000 | 106.000 | ... | 946733.000 | 63261.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 25112.572 |
| 23 | 2020-06-28 | Minnesota | MN | 5700671 | 35549.000 | 3280.000 | 288.000 | 4010.000 | 143.000 | nan | ... | nan | 35549.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.500 | 14251.678 |
| 24 | 2020-06-28 | Missouri | MO | 6169270 | 20575.000 | 19578.000 | 412.000 | nan | nan | nan | ... | 399926.000 | 20575.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.100 | 19124.737 |
| 25 | 2020-06-28 | Mississippi | MS | 2989260 | 25892.000 | 7611.000 | 676.000 | 3102.000 | 149.000 | 88.000 | ... | nan | 25724.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.000 | 11957.040 |
| 26 | 2020-06-28 | Montana | MT | 1086759 | 863.000 | 237.000 | 11.000 | 97.000 | nan | nan | ... | nan | 863.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.300 | 3586.305 |
| 27 | 2020-06-28 | North Carolina | NC | 10611862 | 62142.000 | 23899.000 | 890.000 | nan | nan | nan | ... | nan | 62142.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 22284.910 |
| 28 | 2020-06-28 | North Dakota | ND | 761723 | 3495.000 | 268.000 | 24.000 | 226.000 | nan | nan | ... | nan | 3495.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.300 | 3275.409 |
| 29 | 2020-06-28 | Nebraska | NE | 1952570 | 18775.000 | 5455.000 | 123.000 | 1315.000 | nan | nan | ... | nan | 18775.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.600 | 7029.252 |
| 30 | 2020-06-28 | New Hampshire | NH | 1371246 | 5717.000 | 949.000 | 35.000 | 562.000 | nan | nan | ... | nan | 5717.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 2879.617 |
| 31 | 2020-06-28 | New Jersey | NJ | 8936574 | 171182.000 | 126115.000 | 1014.000 | 19841.000 | 223.000 | 187.000 | ... | nan | 171182.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 21447.778 |
| 32 | 2020-06-28 | New Mexico | NM | 2096640 | 11619.000 | 5877.000 | 122.000 | 1851.000 | nan | nan | ... | nan | 11619.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 3773.952 |
| 33 | 2020-06-28 | Nevada | NV | 3139658 | 17160.000 | 15976.000 | 511.000 | nan | 122.000 | 59.000 | ... | nan | 17160.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 6593.282 |
| 34 | 2020-06-28 | New York | NY | 19440469 | 392539.000 | 297694.000 | 869.000 | 89995.000 | 229.000 | 167.000 | ... | nan | 392539.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.700 | 52489.266 |
| 35 | 2020-06-28 | Ohio | OH | 11747694 | 50309.000 | 47502.000 | 661.000 | 7681.000 | 182.000 | 101.000 | ... | nan | 46790.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.800 | 32893.543 |
| 36 | 2020-06-28 | Oklahoma | OK | 3954821 | 12994.000 | 3212.000 | 329.000 | 1456.000 | 134.000 | nan | ... | 313021.000 | 12642.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.800 | 11073.499 |
| 37 | 2020-06-28 | Oregon | OR | 4301089 | 8341.000 | 5490.000 | 149.000 | 1022.000 | 53.000 | 35.000 | ... | 223317.000 | 7521.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.600 | 6881.742 |
| 38 | 2020-06-28 | Pennsylvania | PA | 12820878 | 85496.000 | 12231.000 | 648.000 | nan | nan | 121.000 | ... | nan | 81956.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.900 | 37180.546 |
| 39 | 2020-06-28 | Rhode Island | RI | 1056161 | 16661.000 | 14134.000 | 91.000 | 1984.000 | 16.000 | 15.000 | ... | nan | 16661.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 2217.938 |
| 40 | 2020-06-28 | South Carolina | SC | 5210095 | 33320.000 | 19148.000 | 954.000 | 2622.000 | nan | nan | ... | 317085.000 | 33221.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.400 | 12504.228 |
| 41 | 2020-06-28 | South Dakota | SD | 903027 | 6681.000 | 838.000 | 75.000 | 652.000 | nan | nan | ... | nan | 6681.000 | 0 | 0 | 0 | 0 | 0 | nan | 4.800 | 4334.530 |
| 42 | 2020-06-28 | Tennessee | TN | 6897576 | 40172.000 | 13429.000 | 484.000 | 2564.000 | nan | nan | ... | 701761.000 | 39848.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.900 | 20002.970 |
| 43 | 2020-06-28 | Texas | TX | 29472295 | 148728.000 | 66361.000 | 5497.000 | nan | nan | nan | ... | nan | nan | 0 | 0 | 0 | 0 | 0 | nan | 2.300 | 67786.278 |
| 44 | 2020-06-28 | Utah | UT | 3282115 | 21100.000 | 9002.000 | 289.000 | 1396.000 | 83.000 | nan | ... | nan | 21100.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.800 | 5907.807 |
| 45 | 2020-06-28 | Virginia | VA | 8626207 | 61736.000 | 51999.000 | 818.000 | 8823.000 | 235.000 | 107.000 | ... | nan | 59071.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 18115.035 |
| 46 | 2020-06-28 | Vermont | VT | 628061 | 1202.000 | 200.000 | 15.000 | nan | nan | nan | ... | nan | 1202.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 1318.928 |
| 47 | 2020-06-28 | Washington | WA | 7797095 | 31404.000 | 30094.000 | 304.000 | 4240.000 | nan | 58.000 | ... | nan | 31404.000 | 0 | 0 | 0 | 0 | 0 | nan | 1.700 | 13255.061 |
| 48 | 2020-06-28 | Wisconsin | WI | 5851754 | 30707.000 | 7977.000 | 239.000 | 3393.000 | 89.000 | nan | ... | nan | 27743.000 | 0 | 0 | 0 | 0 | 0 | nan | 2.100 | 12288.683 |
| 49 | 2020-06-28 | West Virginia | WV | 1778070 | 2817.000 | 662.000 | 32.000 | nan | 10.000 | 4.000 | ... | nan | 2723.000 | 0 | 0 | 0 | 0 | 0 | nan | 3.800 | 6756.666 |
50 rows × 29 columns
The NaN values may indicate that there were no to few Covid-19 patients at these date points. We further analyse the statistical values of the dataset columns to ensure data integrity and accuracy.
#Validte the data with; mean, standard deviation, min/max quartiles:
covid_df.describe()
# TODO rounding up the numbers
| population | positive | active | hospitalizedCurrently | hospitalizedCumulative | inIcuCurrently | onVentilatorCurrently | recovered | death | hospitalized | ... | negativeTestsViral | positiveCasesViral | commercialScore | negativeRegularScore | negativeScore | positiveScore | score | grade | bedsPerThousand | total_beds | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| count | 5932.000 | 5932.000 | 5932.000 | 3645.000 | 3234.000 | 1883.000 | 1675.000 | 5932.000 | 5932.000 | 3234.000 | ... | 535.000 | 3108.000 | 5932.000 | 5932.000 | 5932.000 | 5932.000 | 5932.000 | 0.000 | 5932.000 | 5932.000 |
| mean | 6542964.221 | 21163.607 | 18746.564 | 1023.799 | 4369.803 | 441.040 | 224.801 | 4474.004 | 1101.755 | 4369.803 | ... | 293835.318 | 32231.603 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 2.626 | 15806.395 |
| std | 7387050.444 | 46807.026 | 42033.172 | 1927.101 | 12949.481 | 692.449 | 328.899 | 11042.022 | 2921.727 | 12949.481 | ... | 389283.058 | 56691.350 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 0.744 | 16159.661 |
| min | 567025.000 | 0.000 | 0.000 | 1.000 | 0.000 | 2.000 | 0.000 | 0.000 | 0.000 | 0.000 | ... | 17.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 1.600 | 1318.928 |
| 25% | 1778070.000 | 640.000 | 555.000 | 121.000 | 223.000 | 82.000 | 35.500 | 0.000 | 13.000 | 223.000 | ... | 50018.000 | 5033.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 2.100 | 3773.952 |
| 50% | 4499692.000 | 5122.000 | 4543.000 | 402.000 | 973.000 | 181.000 | 94.000 | 218.000 | 147.000 | 973.000 | ... | 140972.000 | 13770.500 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 2.500 | 11557.920 |
| 75% | 7797095.000 | 20840.750 | 17541.250 | 1032.000 | 3255.250 | 482.000 | 249.000 | 3140.500 | 782.250 | 3255.250 | ... | 360303.000 | 35463.250 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 3.100 | 19124.737 |
| max | 39937489.000 | 392539.000 | 356899.000 | 18825.000 | 89995.000 | 5225.000 | 2425.000 | 79974.000 | 24835.000 | 89995.000 | ... | 2070179.000 | 392539.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 4.800 | 71887.480 |
8 rows × 22 columns
#final_100k_last_month.head()
#Review the out for per capita measures:
final_100k_last_month.describe()
| positive_100k | active_100k | recovered_100k | death_100k | hospitalizedCumulative_100k | inIcuCurrently_100k | onVentilatorCurrently_100k | BedsPer100k | |
|---|---|---|---|---|---|---|---|---|
| count | 61.000 | 61.000 | 61.000 | 61.000 | 61.000 | 62.000 | 62.000 | 62.000 |
| mean | 358.759 | 336.008 | 170.212 | 17.931 | 34.329 | 113.658 | 62.620 | 13440.000 |
| std | 65.620 | 442.921 | 105.723 | 7.283 | 42.821 | 26.916 | 13.514 | 0.000 |
| min | 245.203 | -2213.482 | 35.481 | 4.880 | -93.926 | 70.613 | 39.353 | 13440.000 |
| 25% | 308.315 | 292.339 | 107.989 | 12.184 | 21.638 | 94.079 | 53.461 | 13440.000 |
| 50% | 344.558 | 332.717 | 147.227 | 17.253 | 25.122 | 111.563 | 62.120 | 13440.000 |
| 75% | 405.031 | 370.778 | 211.312 | 23.811 | 29.823 | 126.991 | 74.683 | 13440.000 |
| max | 544.349 | 2291.210 | 626.665 | 33.917 | 246.371 | 167.561 | 94.521 | 13440.000 |
#Validate all US data:
timeseries_usa_df.tail()
| date | positive_100k | active_100k | recovered_100k | death_100k | hospitalizedCurrently_100k | inIcuCurrently_100k | onVentilatorCurrently_100k | BedsPer100k | |
|---|---|---|---|---|---|---|---|---|---|
| 154 | 2020-06-24 | 33315.285 | 19401.954 | 12359.391 | 1553.940 | 408.570 | 68.612 | 36.820 | 13440.000 |
| 155 | 2020-06-25 | 33812.912 | 19730.969 | 12498.864 | 1583.079 | 414.087 | 67.864 | 36.962 | 13440.000 |
| 156 | 2020-06-26 | 34335.924 | 20098.997 | 12643.998 | 1592.929 | 404.115 | 67.051 | 34.318 | 13440.000 |
| 157 | 2020-06-27 | 34829.638 | 20417.559 | 12812.241 | 1599.839 | 407.257 | 68.533 | 35.118 | 13440.000 |
| 158 | 2020-06-28 | 35334.565 | 20809.528 | 12921.408 | 1603.630 | 402.011 | 65.968 | 33.930 | 13440.000 |
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, '% Positive Cases in Hospital')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Killed')
Text(0, 0.5, 'No. Killed')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Killed')
Text(0, 0.5, 'No. Killed')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Killed')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
# TODO fix legend/axis/plot alltogether
# Timeseries plt
fig, ax = plt.subplots(figsize = (16, 12))
plt.plot(fl.date, fl.positiveTestsViral, linewidth=4.7, color='r')
plt.title('Cummulative Number of Positive Viral Tests in Florida', fontsize=23)
plt.xlabel('Date')
plt.ylabel('No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, '% Infected')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, '% Infection Rate')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, '% Infection Rate')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
Text(0, 0.5, 'No. Patients')
<matplotlib.axes._subplots.AxesSubplot at 0x229f277c708>
| population | positive | active | hospitalizedCurrently | inIcuCurrently | onVentilatorCurrently | recovered | death | totalTestsViral | positiveTestsViral | negativeTestsViral | positiveCasesViral | commercialScore | negativeRegularScore | negativeScore | positiveScore | score | grade | total_beds | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| count | 3608.000 | 3608.000 | 3608.000 | 3608.000 | 1833.000 | 1627.000 | 3608.000 | 3608.000 | 1121.000 | 399.000 | 399.000 | 2531.000 | 3608.000 | 3608.000 | 3608.000 | 3608.000 | 3608.000 | 0.000 | 3608.000 |
| mean | 6734094.920 | 31851.205 | 28006.326 | 1020.191 | 437.771 | 221.840 | 7009.118 | 1716.808 | 401896.592 | 25414.065 | 243476.774 | 36576.426 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 16006.400 |
| std | 7738225.857 | 56776.272 | 51040.791 | 1930.862 | 698.186 | 331.324 | 13459.030 | 3599.085 | 542128.442 | 26144.869 | 232041.192 | 61272.107 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 16508.042 |
| min | 567025.000 | 115.000 | 113.000 | 1.000 | 2.000 | 0.000 | 0.000 | 0.000 | 9055.000 | 407.000 | 8648.000 | 396.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 1318.928 |
| 25% | 1778070.000 | 3276.500 | 2835.000 | 117.000 | 80.000 | 34.000 | 9.000 | 91.000 | 87459.000 | 4128.000 | 63478.000 | 6439.500 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 3773.952 |
| 50% | 4645184.000 | 12335.500 | 10087.500 | 399.500 | 179.000 | 91.000 | 1297.500 | 474.500 | 223245.000 | 14135.000 | 168871.000 | 16441.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 11557.920 |
| 75% | 8626207.000 | 35334.500 | 29969.500 | 1014.750 | 469.000 | 238.000 | 6266.500 | 1598.250 | 491884.000 | 44340.500 | 310173.500 | 40708.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 19124.737 |
| max | 39937489.000 | 392539.000 | 356899.000 | 18825.000 | 5225.000 | 2425.000 | 79974.000 | 24835.000 | 3955952.000 | 87087.000 | 946733.000 | 392539.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | nan | 71887.480 |